Evaluierung und Erweiterung von MapReduce-Algorithmen zur Berechnung der transitiven Hülle ungerichteter Graphen für Entity Resolution Workflows
نویسنده
چکیده
Im Bereich von Entity-Resolution oder deduplication werden aufgrund fehlender global eindeutiger Identifikatoren Match-Techniken verwendet, um zu bestimmen, ob verschiedene Datensätze dasselbe Realweltobjekt darstellen. Die inhärente quadratische Komplexität führt zu sehr langen Laufzeiten für große Datenmengen, was eine Parallelisierung dieses Prozesses erfordert. MapReduce ist wegen seiner Skalierbarkeit und Einsetzbarkeit in CloudInfrastrukturen eine gute Lösung zur Verbesserung der Laufzeit. Außerdem kann unter bestimmten Voraussetzungen die Qualität des Match-Ergebnisses durch die Berechnung der transitiven Hülle verbessert werden. Die Berechnung der transitiven Hülle eines Graphen ist von Natur aus ein iterativer Prozess. Ein naiver Ansatz berechnet sie linear, i.e. nach d Iterationen, wobei d die Tiefe des Graphen ist. In dieser Arbeit wird am Beispiel der Entity Resolution die Verwendung von MapReduce für die iterative und verteilte Berechnung der transitiven Hülle untersucht. Der vorgeschlagene Algorithmus Smart-MR operiert nur auf azyklischen Graphen und konvergiert nach genau log d Iterationen. Die drei weiteren Algorithmen Cyc-Smart-MR, Full-TC-MR und CC-MR arbeiten alle auf beliebigen ungerichteten Graphen und weisen ebenso ein logarithmisches Verhalten auf.
منابع مشابه
Radiale Level-Planarität und -Einbettung in Linearzeit
Abstract: Ein Graph mit einer geordneten k-Partitionierung seiner Knoten ist radial level-planar, wenn es eine strikte Auswärtszeichnung auf k konzentrische Kreise ohne Kreuzungen gibt. Radiale Level-Planarität ist eine Erweiterung von Level-Planarität, bei der die Knoten auf k horizontalen Linien und die Kanten strikt nach unten ohne Kreuzungen gezeichnet werden. Kennzeichnend für die Erweiter...
متن کاملAlgorithmen für Kommunikationsnetze
Was ist ein minimaler Spannbaum? Welche Algorithmen zur Berechnung minimaler Spannbäume kennen Sie? Wie funktionieren diese Algorithmen und welche Laufzeit haben sie? Was ist das Steiner-Problem? Für welche Anwendungen ist das Steiner-Problem relevant? Wie funktioniert die Distanz-Heuristik zur Berechnung von Steiner-Bäumen? Welche Approximationsrate erzielt die Distanz-Heuristik und wie kann m...
متن کاملApproximability of cycle covers and smoothed analysis of binary search trees
Der Beitrag enthält eine Zusammenfassung der Dissertation ”Approximability of Cycle Covers and Smoothed Analysis of Binary Search Trees“. Eine Zyklenüberdeckung eines Graphen ist ein Teilgraph, der nur aus Zyklen besteht, so dass jeder Knoten Teil genau eines Zyklus ist. Bei einer L-Zyklenüberdeckung muss zusätzlich die Länge jedes Zyklus in der Menge L liegen. Im ersten Teil der Dissertation w...
متن کاملBerechnung von Modelldifferenzen als Basis für die Evolution von Prozessmodellen
In diesem Beitrag wird die Berechnung von Differenzen zwischen Prozessmodellen betrachtet. Hierzu werden verschiedene Ansätze und Werkzeuge zur Berechnung von Differenzen beschrieben. Ausgehend von einem konkreten Anwendungsfall – einer EPK-zu-BPEL-Transformation – werden verschieden Testkriterien aufgestellt, die anschließend zur Evaluierung von zwei Differenzbildungswerkzeugen dienen. Abschli...
متن کاملDistributed FoodBroker: Skalierbare Generierung graphbasierter Geschäftsprozessdaten
Graphen eignen sich zur Modellierung und Analyse komplexer Zusammenhänge zwischen beliebigen Objekten. Eine mögliche Anwendung ist die graphbasierte Analyse von Geschäftsprozessen. Für die Entwicklung und Evaluierung entsprechener Analysetools werden Datensätze benötigt. FoodBroker ist ein Datengenerator, welcher vordefinierte Geschäftsprozesse simuliert und die Daten in Form von Graphen lokal ...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
عنوان ژورنال:
دوره شماره
صفحات -
تاریخ انتشار 2013